1
Обзор и ландшафт архитектурной эволюции
EvoClass-AI003Lecture 4
00:00

Обзор и ландшафт архитектурной эволюции

Мы переходим от фундаментального успеха AlexNet к эпохе сверхглубоких сверточных нейронных сетей (CNN). Этот сдвиг потребовал глубоких архитектурных инноваций для работы с экстремальной глубиной при сохранении стабильности обучения. Мы проанализируем три ключевые архитектуры —VGG, GoogLeNet (Inception), и ResNet—понимая, как каждая из них решала различные аспекты проблемы масштабирования, заложив основу для строгой интерпретации моделей в последующих частях урока.

1. Структурная простота: VGG

VGG ввела парадигму максимизации глубины с использованием исключительно однородных и малых размеров ядер (исключительно 3x3 сверточных фильтров сложенных). Несмотря на высокую вычислительную сложность, его структурная однородность показала, что чистая глубина, достигаемая за счет минимальных изменений архитектуры, была главным фактором повышения производительности, укрепив важность малых полей восприятия.

2. Вычислительная эффективность: GoogLeNet (Inception)

GoogLeNet противостоял высокой вычислительной стоимости VGG, делая акцент на эффективности и многомасштабном извлечении признаков. Ключевая инновация — это модуль Inception, который выполняет параллельные свертки (1x1, 3x3, 5x5) и пулинг. Критически важно, что он использует свертки 1x1 как бутылочные горлышки для резкого снижения количества параметров и вычислительной сложности до дорогостоящих операций.

Ключевая инженерная проблема
Question 1
Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?
AlexNet
VGG
GoogLeNet
ResNet
Question 2
The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?
Increasing feature map resolution
Non-linear activation
Dimensionality reduction (bottleneck)
Spatial attention
Critical Challenge: Vanishing Gradients
Engineering Solutions for Optimization
Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.
Q1
Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.
Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.